“Data preparation”指在分析、建模或机器学习之前,对原始数据进行清洗、整理与转换的一系列工作,常见包括去重、处理缺失值、纠错、标准化、特征构造、数据集划分等。(在某些语境中也可泛指“为使用而准备数据”的过程。)
/ˈdeɪtə ˌprɛpəˈreɪʃən/ (也常见 /ˈdætə ˌprɛpəˈreɪʃən/)
Data preparation can take more time than model training.
数据准备所花的时间可能比模型训练还要多。
After data preparation, we merged the tables, handled missing values, and engineered features for the prediction task.
完成数据准备后,我们合并了表格、处理了缺失值,并为预测任务构建了特征。
“Data”源自拉丁语 datum(“给出的东西”),复数 data 后来在英语中常用来指“数据”。“Preparation”来自拉丁语 praeparare(“事先准备”)。合在一起,“data preparation”字面即“对数据进行预先准备”,在统计学、数据分析与机器学习语境中逐渐固化为专门术语。